Mirage (VLM)
https://vlm-mirage.github.io/Project
https://github.com/UMass-Embodied-AGI/MirageUMass-Embodied-AGI/Mirage
https://www.arxiv.org/abs/2506.17218Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
https://gyazo.com/c53f2cebd5536b6522ee2638b3a96c0d
VLMが視覚的推論をしようとするとき、現状画像をテキストに置き換えてテキストとして考えるしかない
画像生成を組み込むと重すぎる
そこで画像は生成せず、潜在空間のlatent visual tokensで推論する
これ潜在空間がvaeと対応できるなら、推論(Reasoning)だけじゃなくてImageGPT見たいなタスクもできそうねmorisoba65536.icon
Reasoning